3.1 观察性实验选择偏差因果效应的非参数识别

#ObservationalStudy #SelectionBias #Randomization #CRE

如果我们要阐明因果关系, 且对照实验不可行, 我们可以考虑观察性实验.

1 潜在结果下的因果效应和选择偏差

对单元 $i (i = 1, \dots, n)$ , 我们有处理前协变量 $X_{i}$ , 指示是否处理的变量 $Z_{i}$ , 观测结果 $Y_{i}$ ( $Y_{i} (1), Y_{i} (0)$ ). 假设 ${X_{i}, Z_{i}, Y_{i} (1), Y_{i} (0)}_{i = 1}^{n} \overset{i . i . d}{\sim} {X, Z, Y (1), Y (0)} .$ 这样我们去掉下标 $i$ , 定义 $τ = E [Y (1) - Y (0)]$ , 以及两个组 $\begin{aligned} τ_{T} = E [Y (1) - Y (0) | Z = 1], τ_{C} = E [Y (1) - Y (0) | Z = 0] . \end{aligned}$
根据 (1.1), $\begin{aligned} τ_{T} & = E (Y | Z = 1) - E (Y (0) | Z = 1), \\ τ_{C} & = E (Y (1) | Z = 0) - E (Y | Z = 0) . \end{aligned}$ (注意和 (1.1) 比, 这里没有 CRE 的条件, 所以条件期望里不能完全化为 $Y$ . 我们把这里的 $E (Y (1) | Z = 0), E (Y (0) | Z = 1)$ 称为反事实(counterfactuals)).
定义简单均值之差^[1] $\begin{aligned} τ_{PF} & = E (Y | Z = 1) - E (Y | Z = 0) \\ = E (Y (1) | Z = 1) - E (Y (0) | Z = 0) . \end{aligned}$
这样, $\begin{aligned} τ_{PF} - τ_{T} & = E [Y (0) | Z = 1] - E [Y (0) | Z = 0], \\ τ_{PF} - τ_{C} & = E [Y (1) | Z = 1] - E [Y (1) | Z = 0] \end{aligned}$ 通常不是 $0$ , 它们可以用来量化选择偏差.
在 2.7节中, 我们在 CRE 中假定 $Z ⊥ ⊥ {Y (1), Y (0)}$ , 则 $τ_{PF} = τ_{T} = τ_{C} = τ$ .
从上面的讨论看出, 随机化最主要的好处是平衡潜在结果在两个组中的分布, 这比起观测协变量的平衡要远远更强. 如果没有随机化, 选择偏差可能会很大. 这便是观察性实验本质的难点所在.

2 因果效应非参数检验的充分条件

2.1 识别

观察性实验的因果推断很有挑战, 它依赖很强的假设. 我们可以用处理前协变量的信息, 假设 $\begin{aligned} E [Y (0) | Z = 1, X] & = E [Y (0) | Z = 0, X], \\ E [Y (1) | Z = 1, X] & = E [Y (1) | Z = 0, X] . \end{aligned}$

这里的 PF 代表 prima facie, 拉丁语, 意为基于第一印象. ↩︎